语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
ICML表达性发声(EXVO)的竞争重点是理解和产生声音爆发:笑声,喘息,哭泣和其他非语言发声,这是情感表达和交流至关重要的。 EXVO 2022,包括三个竞赛曲目,使用来自1,702位扬声器的59,201个发声的大规模数据集。首先是Exvo-Multitask,要求参与者训练多任务模型,以识别声音爆发中表达的情绪和人口特征。第二个,即exvo生成,要求参与者训练一种生成模型,该模型产生声音爆发,传达了十种不同的情绪。第三个exvo-fewshot要求参与者利用少量的学习融合说话者身份来训练模型,以识别声音爆发传达的10种情感。本文描述了这三个曲目,并使用最先进的机器学习策略为基线模型提供了绩效指标。每个曲目的基线如下,对于exvo-multitask,一个组合得分,计算一致性相关系数的谐波平均值(CCC),未加权的平均召回(UAR)和反向平均绝对错误(MAE)(MAE)($ s_ {mtl) } $)充其量是0.335 $ s_ {mtl} $;对于exvo生成,我们报告了Fr \'Echet Inception距离(FID)的得分范围为4.81至8.27(取决于情绪),在训练集和生成的样品之间。然后,我们将倒置的FID与生成样品的感知评级($ s_ {gen} $)相结合,并获得0.174 $ s_ {gen} $;对于Exvo-Fewshot,获得平均CCC为0.444。
translated by 谷歌翻译
我们提出了一个互动艺术项目,使Covid-19危机不可见的项目,并通过欢迎旋律的欢迎孤独,通过高级笑声综合方法创造和探索的联系。然而,在高质量听觉综合中的人类情绪反应的无条件产生仍然是一个公开问题,对艺术环境中这些方法的应用具有重要意义。我们开发了利用生成对抗网络(GANS)再现人笑声多样性的方法。当培训在不同笑声样本的数据集时,Lockganter会产生多样化,高质量的笑声样本,并学习适合情绪分析和新颖的艺术应用的潜在空间,如潜在混合/插值和情绪转移。
translated by 谷歌翻译
我们来看看如何机器学习是获得独立的媒体集合中的项目的性质技术可用于自动嵌入故事写成这样的集合。要做到这一点,我们使用抽取歌曲的节奏,使音乐播放列表遵循叙事弧模型。我们的工作规定了一个开源的工具,使用预训练神经网络模型,以提取一组原始音频文件的全球节奏和应用这些措施,创造一个叙事的播放清单。此工具可在https://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0
translated by 谷歌翻译